یک روش سریع برای تقطیع گفتار گویندگان بر اساس بسامد گام گفتار (rpss)

نویسندگان

بهروز عبدالعلی

behrouz abdolali number 113 – mohebban aley – taleghani street – shahriar – tehran – iranتهران شهریار خیابان طالقانی کوچه محبان اهل بیت پلاک 113 حسین صامتی

hossein sameti sharif university of technology - computer departmentتهران دانشگاه صنعتی شریف دانشکده کامپیوتر محمد حسین قزل ایاغ

mohammad hossein ghezeayagh imam hossein university – electrical departmentتهران - دانشگاه امام حسین - گروه مهندسی الکترونیک

چکیده

تقطیع و خوشه بندی گویندگان فرآیندی است که طی آن قطuه بندی و برچسب گذاری برای گفتار حاصل از یک جلسه که شامل چند گوینده است انجام می شود و دنباله صوتی به بخش هائی تقسیم می شود که هر بخش شامل فقط یک گوینده است و با برچسب گذاری مشخّص می شود که هر بخش مربوط به کدام گوینده است. تشخیص فعالیت گفتاری، تقطیع گفتار و خوشه-بندی گویندگان، حداقل مراحل اصلی سامانه های تقطیع و خوشه بندی گفتار بر اساس گوینده محسوب می شوند. برای مرحله ی تقطیع روش های متعددی وجود دارد که تقطیع بر مبنای bic یکی از روش های مرسوم است. این روش به دلیل محاسبات آماری آن، نیاز به زمان محاسبات طولانی دارد. هدف اصلی این مقاله ارائه ی روش تقطیع بر اساس بسامد گام گفتار است، که هم دارای دقتی در حدّ روش های مرسوم است و هم دارای سرعت محاسبات بالا است، به طوری که در مقایسه با تقطیع بر اساس bic به طور میانگین دارای مزیّت 4/2 برابری در سرعت و افزایش یک درصد در دقت است.

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

یک روش سریع برای تقطیع گفتار گویندگان بر اساس بسامد گام گفتار (RPSS)

تقطیع و خوشه بندی گویندگان فرآیندی است که طی آن قطuه بندی و برچسب گذاری برای گفتار حاصل از یک جلسه که شامل چند گوینده است انجام می‌شود و دنباله صوتی به بخش‌هائی تقسیم می‌شود که هر بخش شامل فقط یک گوینده است و با برچسب گذاری مشخّص می‌شود که هر بخش مربوط به کدام گوینده است. تشخیص فعالیت گفتاری، تقطیع گفتار و خوشه-بندی گویندگان، حداقل مراحل اصلی سامانه های تقطیع و خوشه بندی گفتار بر اساس گوین...

متن کامل

طراحی یک روش آموزش ناموازی جدید برای تبدیل گفتار با عملکردی بهتر از آموزش موازی

Introduction: The art of voice mimicking by computers, has with the computer have been one of the most challenging topics of speech processing in recent years. The system of voice conversion has two sides. In one side, the speaker is the source that his or her voice has been changed for mimicking the target speaker’s voice (which is on the other side). Two methods of p...

متن کامل

بررسی تأثیر افت شنوایی بر مهارت های سریع حرکتی دهانی، سرعت گفتار و قابلیت فهم گفتار

هدف: تأثیر منفی افت شنوایی بر مهارتهای حرکتی سریع اندام های گفتاری، سرعت گفتار و قابلیت فهم گفتار هر یک به تنهایی در افراد کم شنوا به اثبات رسیده است. بررسی نحوه این تأثیرگذاری در آستانه های مختلف شنوایی و چگونگی وجود ارتباط بین این سه متغیر گفتاری و ارتباط بین آزمون های موجود برای بررسی این متغیرها هدف این پژوهش می باشد. روش بررسی: این مطالعه تحلیلی مقطعی بر روی 46 بزرگسال مبتلا به افت شنوایی ...

متن کامل

تقطیع هجایی گفتار پیوسته فارسی با استفاده از آستانه‌گذاری ضرایب موجک و نرم‌سازی فازیِ تابع انرژی

امروزه در تحقیقات حوزه پردازش و بازشناخت گفتار، هجا به دلیل ارتباط قوی آن با تولید و ادراک گفتار در انسان، به عنوان یک واحد زیرکلمه‌ای هر روز بیشتر مورد توجه قرار می‌گیرد. آشکارسازی خودکار مرزهای هجایی گامی مهم در تحقیقات مرتبط با نوای گفتار، تولید گفتار طبیعی و حتی بازشناسی گفتار است. در این مقاله روش جدیدی برای آشکارسازی خودکار مرزهای هجایی در سیگنال گفتار پیوسته فارسی با تکیه بر اطلاعات صوتی...

متن کامل

تحلیل ژانر شطح بر اساس نظریه کنش گفتار

استفاده از نظریه‌های زبان‌شناسی در تحلیل آثار ادبی، هم می‌تواند جنبه‌های تازه‌ای از آثار ادبی را پیش روی ما آورد، هم می‌تواند افق‌های تازه‌ای را به روی چشم زبان‌شناسان بگشاید. این مقاله با چنین رویکردی به سراغ نظریه زبانی «کنش گفتار» رفته، آن را روی یکی از مشهورترین ژانرهای ادبی (شطحیات) پیاده می‌کند. در بخش نخست، سعی کردیم با اشاره به سیر تکوینی نظریه کنش گفتار، مبانی آن را توضیح دهیم؛ مبا...

متن کامل

ارائه یک روش جدید بازیابی اطلاعات مناسب برای متون حاصل از بازشناسی گفتار

In this article a pre-processing method is introduced which is applicable in speech recognized texts retrieval task. We have a text corpus, t generated from a speech recognition system and a query as inputs, to search queries in these documents and find relevant documents. A basic problem in a typical speech recognized text is some error percentage in recognition. This, results erroneously ass...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

عنوان ژورنال:

علوم و فناوری های پدافند نوین

جلد ۳، شماره ۱، صفحات ۲۹-۳۸

کلمات کلیدی

تقطیع و خوشه بندی گویندگان تقطیع گفتار بسامد گام گفتار

میزبانی شده توسط پلتفرم ابری doprax.com